倉頡之友
康熙与倉頡
主頁 自學 倉頡字典 康熙字典體

倉頡平台2022 網上輸入法 九萬漢字

論壇 聯絡 康熙字典網上版 捐助本站

倉頡論壇

蒼頡檢字法《內碼對照表》文本化計劃
本帖最後由 馬拉一個錘子 於 5-11-2025 05:23 PM 編輯
qkj70 發表於 5-11-2025 04:40 PM
请问一下为什么相比较“坊间码表”,少了那么多字?
这个:https://github.com/rime-aca/rime-cangjie6
10 ...

上文已提及,倉頡輸入法官方自有一套字符集與內碼體系,與Unicode並不相同。內碼對照表中僅收錄官方字符集所包含的字。從數量上看,Unicode經過多次擴充,其收錄的字符數量已遠超官方內碼表。

Unicode所收錄的字未必存在於官方字符集中;反之,官方字符集內的部分字,也不一定包含於Unicode。本計劃即是將官方收錄的字精確映射至Unicode,將蒼檢的官方碼表變成基於Unicode的計算機可以處理的文本,而不會對字數進行增減。

坊間流傳的蒼檢碼表雖字數眾多,卻多有粗製濫造、內容矛盾之處。本碼表雖收錄字數較少,但品質更為可靠,與蒼檢的實際規則更加相符。
  • 12# qkj70
  • 10-11-2025 06:08:54
本帖最後由 qkj70 於 10-11-2025 06:39 AM 編輯

本帖最後由 山水晏 於 10-11-2025 08:43 AM 編輯
馬拉一個錘子 發表於 5-11-2025 05:21 PM
坊間流傳的蒼檢碼表雖字數眾多,卻多有粗製濫造 ...

「敲得出字」不是選擇輸入法的首要考量嗎?
本帖最後由 馬拉一個錘子 於 10-11-2025 12:15 PM 編輯
山水晏 發表於 10-11-2025 08:41 AM
「敲得出字」不是選擇輸入法的首要考量嗎?

凡事總有過程,是先改善質量,弄清規則,再考慮擴增,而非反過來,我相信本碼表是日後擴增的良好基礎,它已經包含了常用字,和大量的罕用字,不包括Unicode尚沒有的字,實際收字也有五萬九千多字呢。

如果碼表存在大量衝突矛盾的編碼,同樣不能打出字。就像「萨」在坊間編碼「TNLY」,利用了「产」輔助字形,而「铲」卻編碼「OPYTH」,沒有使用「产」輔助字形。「奡」編碼「MUKLL」,「𬛬」却又編碼「HUKL」。「啻」編碼「YBLBR」,而「𬃨」卻編碼「YBLD」。這種錯誤衝突的編碼會讓使用者無所適從,即使碼表有收字,無法通過正常的規則和輔助字形知道該字在該碼表中的真正編碼,也無法打出字。
補全字集屬於另一項獨立的工作,而本專案的目標就是將《內碼對照表》文本化,還原原貌,這樣才能方便研究規則、為擴增打好基礎。我們十分認同大家補全字集的建議,我們的任務尚未完成,我們會繼續努力。

馬拉一個錘子 發表於 10-11-2025 10:45 AM
凡事總有過程,是先改善質量,弄清規則,再考慮擴增,而非反過來,我相信本碼表是日後擴增的良好基礎,它 ...

像Unicode這種一碼多形的字
倉頡碼如何處理

2025-11-10_092052.png 2025-11-10_091403.png 2025-11-10_091037.png 2025-11-10_090727.png

本帖最後由 馬拉一個錘子 於 10-11-2025 02:11 PM 編輯
山水晏 發表於 10-11-2025 01:54 PM
像Unicode這種一碼多形的字
倉頡碼如何處理

官方在《內碼對照表》中已處理了異體字的問題。在倉頡系統中,這些字都是不同的字,擁有不同的內碼,然而,Unicode中這些有細微差別的異體字都被「統合」到同一個碼位上,所以在文本化的過程中,就是將不同的倉頡碼對應到同一個Unicode碼位上,以兼容異體寫法。例:
沿  EHNR
沿  ECR

勺 PI
勺 PM

黄 TLWC
黄 TWC

虎 YPHU
虎 YPHN

另再提一句,目前,倉頡三代和五代在規則和碼表上都已很完善,都已有編到擴展J區、質量較高的碼表,閣下所言及的字形問題也有妥善處理。本計劃主要針對的是蒼頡檢字法(蒼頡六代)。若需要擁有全部Unicode CJK表意文字的碼表,目前(2025年11月10日)倉頡只有三代和五代可選。



馬拉一個錘子 發表於 10-11-2025 02:02 PM
官方在《內碼對照表》中已處理了異體字的問題。在倉頡系統中,這些字都是不同的字,擁有不同的內碼,然而 ...

這個臺灣字形
我不會敲「EHNR」

2025-11-10_140918.png


山水晏 發表於 10-11-2025 02:13 PM
這個臺灣字形
我不會敲「EHNR」

正是,因此上方已有提及「沿」也有「ECR」編碼。
馬拉一個錘子 發表於 10-11-2025 02:22 PM
正是,因此上方已有提及「沿」也有「ECR」編碼。

所以「儿」「兀」也都用「C」
本帖最後由 馬拉一個錘子 於 10-11-2025 02:43 PM 編輯
山水晏 發表於 10-11-2025 02:26 PM
所以「儿」「兀」也都用「C」

並非如此。倉頡三代、五代,乃至蒼頡檢字法,都是嚴格區分「ㄦ」和「儿」的。
請見倉頡五代手冊中的規則說明。

因此「兒」在三代和五代取碼「HXHU」、在蒼檢中取碼「XHU」,不可取「HXC」或「XC」。
「儿」在三代和五代中取碼「LU」,在蒼檢中取碼「LU」和「HU」,不可單取「C」。「兀」在三代、五代和蒼檢中都取碼「MU」,即丆乚,不可取「MC」(一ㄦ)。

只有像「沿」右上方的部件可以取碼「C」,取碼「ECR」,再例如「陸」、「西」中的「ㄦ」可以取碼「C」。



  • IMG_9716.jpg
上一頁第2頁下一頁
回復 2收藏 淘帖